公平定理是算法公平文献中的基本结果。它指出,在特殊情况之外,人们不能准确和同时满足公平性的所有三个共同和直观的定义 - 人口统计学奇偶,均衡的赔率和预测率的均等。这一结果促使大多数作品专注于一个或两个指标的解决方案。与其效仿,在本文中,我们提出了一个框架,该框架可以推动不可能定理的限制,以便尽可能地满足所有三个指标。我们开发了一种基于整数编程的方法,该方法可以产生一种认证的最佳后处理方法,以同时满足小违规情况下的多重公平标准。我们显示的实验表明,我们的后处理器可以同时降低模型性能的同时提高不同定义的公平性。我们还讨论了我们在模型选择和公平性解释性方面的应用程序,从而试图回答以下问题:谁是最公平的?
translated by 谷歌翻译
建立公平的推荐系统是一个具有挑战性且至关重要的研究领域,因为它对社会产生了巨大影响。我们将两个普遍公认的公平概念的定义扩展到了推荐系统,即机会平等和均衡的赔率。这些公平措施确保同样对待“合格”(或“不合格”)候选人,无论其受保护的属性状况如何(例如性别或种族)。我们提出了可扩展的方法,以实现机会平等和在存在位置偏见的情况下排名均等的几率,这通常会困扰推荐系统产生的数据。我们的算法是模型不可知论,因为它们仅依赖于模型提供的最终分数,因此很容易适用于几乎所有Web尺度推荐系统。我们进行广泛的模拟以及现实世界实验,以显示我们方法的功效。
translated by 谷歌翻译
Incidental supervision from language has become a popular approach for learning generic visual representations that can be prompted to perform many recognition tasks in computer vision. We conduct an in-depth exploration of the CLIP model and show that its visual representation is often strongly biased towards solving some tasks more than others. Moreover, which task the representation will be biased towards is unpredictable, with little consistency across images. To resolve this task bias, we show how to learn a visual prompt that guides the representation towards features relevant to their task of interest. Our results show that these visual prompts can be independent of the input image and still effectively provide a conditioning mechanism to steer visual representations towards the desired task.
translated by 谷歌翻译
光活性虹膜复合物的应用广泛,因为它们的应用从照明到光催化。但是,从精确度和计算成本的角度来看,这些复合物的激发状态性能预测挑战了从头开始方法,例如时间依赖性密度功能理论(TDDFT),使高吞吐量虚拟筛选(HTVS)复杂化。相反,我们利用低成本的机器学习(ML)模型来预测光活性虹膜复合物的激发状态特性。我们使用1,380个虹膜复合物的实验数据来训练和评估ML模型,并确定最佳和最可转移的模型,是从低成本密度功能理论紧密结合计算的电子结构特征训练的模型。使用这些模型,我们预测所考虑的三个激发态性能,即磷光的平均发射能,激发态寿命和发射光谱积分,具有具有或取代TDDFT的精度。我们进行特征重要性分析,以确定哪些虹膜复杂属性控制激发状态的特性,并通过明确的例子来验证这些趋势。为了证明如何将ML模型用于HTV和化学发现的加速度,我们策划了一组新型的假设虹膜络合物,并确定了新磷剂设计的有希望的配体。
translated by 谷歌翻译
本文的重点是概念证明,机器学习(ML)管道,该管道从低功率边缘设备上获取的压力传感器数据中提取心率。 ML管道包括一个UPS采样器神经网络,信号质量分类器以及优化的1D横向扭转神经网络,以高效且准确的心率估计。这些型号的设计使管道小于40 kb。此外,开发了由UPS采样器和分类器组成的杂种管道,然后开发了峰值检测算法。管道部署在ESP32边缘设备上,并针对信号处理进行基准测试,以确定能量使用和推理时间。结果表明,与传统算法相比,提出的ML和杂种管道将能量和时间减少82%和28%。 ML管道的主要权衡是准确性,平均绝对误差(MAE)为3.28,而混合动力车和信号处理管道为2.39和1.17。因此,ML模型显示出在能源和计算约束设备中部署的希望。此外,ML管道的较低采样率和计算要求可以使自定义硬件解决方案降低可穿戴设备的成本和能源需求。
translated by 谷歌翻译
机器学习(ML)加速化学发现的两个突出挑战是候选分子或材料的合成性以及ML模型训练中使用的数据的保真度。为了应对第一个挑战,我们构建了一个假设的设计空间,为3250万转型金属复合物(TMC),其中所有组成片段(即金属和配体)和配体对称性都可以合成。为了应对第二项挑战,我们在雅各布梯子的多个梯级之间的23个密度功能近似之间搜索预测的共识。为了加快这3250万TMC的筛选,我们使用有效的全局优化来样本候选低自旋发色团,同时具有低吸收能和低静态相关性。尽管在这个大化的化学空间中的潜在发色团缺乏(即$ <$ 0.01 \%),但随着ML模型在积极学习过程中的改善,我们确定了高可能性(即$> $ 10 \%)的过渡金属发色团(即$> $ 10 \%)。这代表发现的1,000倍加速度,与几天而不是几年中的发现相对应。对候选发色团的分析揭示了对CO(III)和具有更大键饱和度的大型强野配体的偏爱。我们根据时间依赖性密度功能理论计算计算帕累托前沿上有希望的发色团的吸收光谱,并验证其中三分之二是否需要激发态特性。尽管这些复合物从未经过实验探索,但它们的组成配体在文献中表现出有趣的光学特性,体现了我们构建现实的TMC设计空间和主动学习方法的有效性。
translated by 谷歌翻译
与更苛刻但准确的相关波函数理论相比,由于其成本准确性的权衡,近似密度功能理论(DFT)已成为必不可少的。然而,迄今为止,尚未确定具有通用精度的单个密度函数近似(DFA),从而导致DFT产生的数据质量的不确定性。通过电子密度拟合和转移学习,我们构建了DFA推荐使用者,该DFA选择以系统特异性方式相对于黄金标准但过度良好的耦合群集理论的DFA。我们在垂直旋转分解能量评估中证明了这种推荐的方法,用于具有挑战性的过渡金属复合物。我们的推荐人可以预测表现最佳的DFA,并产生出色的精度(约2 kcal/mol),可用于化学发现,表现优于单个传递学习模型和一组48 dFA中的单个最佳功能。我们证明了DFA推荐剂对具有独特化学的实验合成化合物的可传递性。
translated by 谷歌翻译
我们在多变量时间序列预测(MTSF)的域中制定了一个新的推理任务,称为变量子集预报(VSF),其中仅在推理过程中可用一小部分变量子集。由于长期数据丢失(例如,传感器故障)或列车 /测试之间的高 - >低资源域移动,因此在推理过程中没有变量。据我们所知,在文献中尚未研究MTSF模型在存在此类故障的情况下的稳健性。通过广泛的评估,我们首先表明,在VSF设置中,最新方法的性能显着降低。我们提出了一种非参数包装技术,该技术可以应用于任何现有的预测模型。通过在4个数据集和5个预测模型的系统实验中,我们表明我们的技术能够恢复模型的接近95 \%性能,即使仅存在15 \%的原始变量。
translated by 谷歌翻译
适当地识别和处理具有显着多参考(MR)特征的分子和材料对于在虚拟高通量筛选(VHT)中实现高数据保真度至关重要。然而,使用单一功能的近似密度泛函理论(DFT)进行大多数VHT。尽管发展了许多MR诊断,但这种诊断的单一价值的程度表明了对化学性质预测的MR效应不是很好的。我们评估超过10,000个过渡金属配合物(TMC)的MR诊断方法,并与有机分子中的那些进行比较。我们透露,只有一些MR诊断程序可在这些材料空间上转移。通过研究MR特征对涉及多个潜在能量表面的化学性质(即,MR效应)的影响(即绝热自旋分裂,$ \ DELTA E_ \ MATHRM {HL} $和电离潜力,IP),我们观察到这一点先生效应的取消超过积累。 MR特征的差异比预测物业预测中MR效应的先生特征的总程度更重要。通过这种观察,我们建立转移学习模型,直接预测CCSD(T)-Level绝热$ \ Delta e_ \ Mathrm {H-L} $和IP从较低的理论。通过将这些模型与不确定量化和多级建模相结合,我们引入了一种多管策略,可将数据采集加速至少三个,同时实现鲁棒VHT的化学精度(即1 kcal / mol)。
translated by 谷歌翻译
机器学习(ML) - 基卡化的发现需要大量的高保真数据来揭示预测结构性质关系。对于对材料发现的兴趣的许多性质,数据生成的具体性和高成本导致数据景观几乎没有人居住和可疑质量。开始克服这些限制的数据驱动技术包括在密度函数理论中使用共识,开发新功能或加速电子结构理论,以及检测到计算要求苛刻的方法是最必要的。当无法可靠地模拟属性时,大型实验数据集可用于培训ML模型。在没有手动策策的情况下,越来越复杂的自然语言处理和自动图像分析使得可以从文献中学习结构性质关系。在这些数据集上培训的模型将随着社区反馈而改善。
translated by 谷歌翻译